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摘 要 : 在 天 文学 研究 领域 ， 星 系 的 分 类 一 直 是 一 个 热点 和 难点 问题 。 近 年 来 有 学 者 将 
机 器 学 习 应 用 到 星系 形态 的 简单 分 类 任务 上 , 但 在 分 类 过 程 中 出 现 特征 选择 困难 、 特 征 遗 漏 、 
分 类 器 选择 困难 等 一 系列 难题 。 星 系 在 视觉 形态 上 可 以 分 为 椭圆 星系 、 旋 涡 星 系 、 透 镜 星 系 
以 及 不 规则 星系 ， 本 文 针 对 SDSS DR16, Galaxy Zoo2、EFIGI 目录 中 星系 的 测 光 图 像 ， 提 
出 了 一 种 分 类 精度 更 高 的 星系 形态 分 类 的 方法 GMC(Galaxy Morphological Classification) » 4X 
们 首先 对 图 像 进 行 了 剪裁 、 去 骂 处 理 ， 然 后 采用 旋转 、 平 移 、 缩 放 等 方法 进行 数据 增强 ， 最 
后 搭建 了 星系 形态 分 类 网 络 GMC-net 对 图 像 进行 分 类 。 从 实验 分 类 结果 来 看 ， 旋 涡 星 系 、 
椭 贺 星系、 透镜 星系 以 及 不 规则 星系 分 类 精确 率 分 别 为 98.29%、98.49%、99.18%、99.91%， 
召回 率 分 别 为 98.4496. 99.03%. 98.89%. 99.34%; 对 单独 来 自 EFIGI 目录 中 四 种 形态 星系 
的 分 类 准确 率 也 达到 了 99.34%。 实 验 结 果 表 明 GMC 相 较 于 其 他 分 类 方法 表现 更 好 ， 可 以 
更 有 效 地 用 于 星系 的 形态 分 类 。 
Xu: 星系 形态 分 类 ; 数据 增强 ; 卷 积 神经 网 络 ; 


Tii 


1 5| 


随 着 观测 技术 的 进步 、 天 文 观 测 仪器 的 发 展 ， 大 型 数字 巡天 计划 如 斯 隆 数 字 近 天 (Sloan 
Digital Sky Survey, SDSS", COSMOS X(Cosmic Evolution Survey, COSMOS)", K044 
全 天 巡视 望远镜 LSSTULarge Synoptic Survey Telescope，LSST)BI 等 逐步 实施 ， 星 系 观 测 数 据 
呈现 出 爆炸 式 增 长 的 趋势 。 

星系 是 众多 天 体 中 一 类 ， 主 要 由 恒星 、 恒 星 遗 通 、 星 际 气体 、 尘 埃 和 暗物质 等 组 成 ， 并 
受 引力 绑 定 的 一 个 系统 。 星 系 的 形态 与 星系 的 形成 、 演 化 有 着 密切 的 联系 ， 是 探究 星系 物理 
的 重要 参数 。 随 着 机 器 学 习 和 深度 学 习 在 各 个 领域 大 放 光 彩 , 星系 形态 的 自动 分 类 方法 也 迅 
速 发 展 。Freed M 用 多 个 支持 向 量 机 (SVM) 对 星系 形态 进行 螺旋 星系 、 椭圆 星系 和 不 规则 星 
系 的 三 分 类 ， 其 最 高 分 类 准确 率 为 96.8%。Dieleman 局 等 以 5 万 多 张 星系 图 片 为 训练 集 ， 经 
过 100 多 次 的 尝试 ， 首 次 提出 用 卷 积 神经 网 络 进行 模型 训练 ,最终 以 0.07492 的 RMS 值 获得 了 
“银河 动物 园 挑 战 赛 ” 比 赛 的 冠军 。Kim et all" 利用 SDSS DR12 中 17344 张 恒星 和 47656 张 星 
系 图 像 ， 提 出 一 个 类 似 VGG 的 11 层 深度 卷 积 神经 网 络 实现 了 对 恒星 、 星 系 进行 分 类 ， 测 试 
集 上 的 准确 率 值 分 别 可 以 达到 99.52% 和 99.48%。I. M. Selim0 等 对 来 自 于 EFIGI 目 录 的 旋涡 
ER MAER, 透镜 星系 和 不 规则 星系 进行 了 四 分 类 ， 提 取 了 星系 图 像 的 颜色 特征 、 纹 
特征 以 及 其 形状 特征 三 种 特征 , 并 用 二 进 制 正弦 余弦 算法 选择 最 相关 的 特征 , 最 后 用 KNN 
对 四 类 星系 分 类 的 准确 率 分 别 为 97.43%、100%、79.48%、100%, 平均 分 类 准确 率 为 94.2%。 
Ansh Mittalg 等 提出 了 一 种 星系 形态 的 分 类 网 络 daaMCOGCNN， 该 方法 对 不 规则 星系 进行 了 
数据 增强 、 使 用 不 同 的 激活 函数 构建 了 卷 积 神经 网 络 , 使 椭圆 星系 、 旋 涡 星系 和 不 规则 星系 
分 类 准确 率 达 到 了 97%。Mittal 等 结合 数据 增强 技术 和 深度 学 习 的 方法 实现 了 对 透镜 星系 、 
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椭圆 星系 和 旋涡 星系 的 分 类 , 此 模型 的 分 类 准确 率 达 到 了 90.2%, 验证 准确 率 达 到 了 88.3%。 
Hosnyt" 等 提取 星系 图 像 的 非 宛 余 色彩 特征 ， 并 提出 了 一 种 寻找 最 优 的 特征 子 集 方法 ， 最 后 
利用 极端 机 器 学 习 (EML) 对 椭圆 星系 、 旋 涡 星 系 、 透 镜 星 系 和 不 规则 星系 进行 分 类 ， 分 类 效 
果 达 到 98%。 

然而 , 目前 对 于 星系 形态 分 类 研究 领域 还 存在 分 类 类 别 少 、 分 类 样本 类 间 比 例 失 衡 等 问 
题 ， 此 前 研究 多 是 对 椭圆 星系 、 涡 旋 星 系 、 透 镜 星系 进行 二 分 类 或 三 分 类 。 面 对 更 多 类 型 星 
系 形态 的 数据 ， 当 前 的 分 类 方法 所 得 的 准确 率 比 较 低 ， 因此 迫切 需要 一 种 能 准确 区 分 更 多 星 
系 形态 的 方法 。 我 们 的 目标 是 能 够 找到 一 种 方法 能 够 实现 旋涡 星系 、 椭 圆 星系 、 透 镜 星 系 以 
及 不 规则 星系 自动 分 类 ， 甚 至 可 以 实现 不 同 数据 库 中 四 类 不 同形 态 星 系 的 自动 分 类 。 如 图 1 
PAN, 本 文 对 来 自 不 同 数据 库 中 的 星系 图 像 进 行 了 裁剪 和 下 采样 从 而 筛 除 质量 差 的 数据 , 同 
时 对 数据 进行 去 噪 处 理 和 数据 增强 来 减 小 图 像 噪声 和 样本 类 间 比 例 失衡 对 分 类 模型 的 影响 。 
之 后 我 们 提出 了 一 种 更 高 效 的 星系 形态 自动 化 分 类 网 络 GMC-net， 回 避 了 图 像 特征 提取 、 选 
择 、 分 类 器 选择 这 些 难 题 ， 从 而 高 效 的 实现 了 四 类 不 同形 态 星系 的 分 类 。 
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图 1 ”GMC 整体 流程 图 
Fig.1 The overall flow chart of GMC 


2 数据 


本 次 研究 主要 使 用 的 是 SDSS DR16、Galaxy Zo02 和 EFIGI 目 录 的 数据 ， 从 本 质 来 说 三 个 
数据 库 的 测 光 数 据 来 源 都 是 SDSS 数 字 巡 天 。SDSS 所 得 到 的 原始 数据 为 u、g、r、i、z 五 个 波 
段 数 据 ， 但 u、z 波 段 多 是 近 紫 外 和 近 红 外 ， 且 包含 的 有 用 信息 非常 少 。g，r，i 三 波段 数据 
已 经 完全 足够 还 原 比较 真实 星系 图 像 ， 所 以 当前 相关 研究 一 般 采 用 g，r，i 三 波段 数据 合成 
的 gars ， [25][26] 。 


j 2.1 数据 获取 
E EFIGI 目 录 59 中 的 测 光 和 光谱 数据 是 从 SDSS DR5 目 录 获 得 的 ， 目 录 中 星系 按 形态 主要 
= 分 为 椭圆 形 、 透 镜 状 、 旋 涡 形 、 不 规则 形 、 矮 形 Dwad ， 此 五 类 又 分 为 不 同 的 子 类 。 利 
Q 星系 形态 参数 T(T E[-6，11]，T 为 整数 ， 分 别 代表 不 同形 态 星 系 类 型 ) 可 以 筛选 不 同形 态 的 


星系 ， 表 1 中 展示 了 各 类 星系 的 选择 标准 ， 最 终 在 EFIGI 获 得 的 星系 为 920 张 旋涡 星系 、289 
张 椭圆 星系 、531 张 透镜 星系 以 及 248 张 不 规则 星系 。 

星系 动物 园 (Galaxy Zoo2)04 包 括 11 个 任务 和 37 个 响应 , 同一 个 样本 超过 二 十 人 对 其 分 类 
才 会 统计 ，[14] 给 出 每 个 分 类 任务 干净 样本 阔 值 范围 以 及 11 个 具体 分 类 任务 ， 为 保证 所 选 样 
本 更 准确 ， 此 次 设置 的 阔 值 均 大 于 所 建议 冰 值 ， 表 1 注释 部 分 对 各 个 参数 阔 值 设置 进行 了 详 
细 解 释 所 示 ， 最 终 在 Galaxy Zoo2 获 得 的 星系 为 3095 张 旋涡 星系 、4208 张 椭圆 星系 、1805 张 
透镜 星系 以 及 235 张 不 规则 星系 。 

本 次 研究 采用 了 最 新 发 布 SDSS DR1609 测 光 数 据 ， 该 数据 星 表 可 在 CasJobs051 中 通过 星 
系 specObjID 与 Galaxy 星 表 交 叉 得 到 相应 星系 亦 经 亦 纬 。 除 了 表 1 所 叙述 的 主要 查询 标准 限制 
还 有 如 下 设置 ， 所 有 图 像 都 设置 红 移 下 限 为 0.001、 红 移 上 限 为 0.025、 通 量 下 限 为 50、 通 量 
上 限 为 300 及 0.01 的 图 像 缩放 因子 ， 设 置 提取 top2000 个 数据 。 不 规则 星系 物理 条 件 的 限制 目 
前 还 未 知 ， 在 此 未 得 到 不 规则 星系 。DR16 中 各 类 星系 数量 分 布 也 是 不 均 的， 在 此 人 工 筛选 
去 除了 双重 的 、 合 并 的 以 及 包含 许多 未 知 对 和 象 的 图 像 最 终 得 到 913 张 旋涡 星系 、1956 张 椭圆 
星系 、805 张 透镜 星系 。 
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de 1 星系 数据 选择 标准 


Tab.1 Galaxy data selection criteria 


EFIGI Galaxy Zoo2 SDSS DR16 
Class Sample selection Tasks Threshold setting Main query criteria N sample 
TOL feat res/disk 20.430 
Sb(T=3) g.InLDeV_g < -2000.0 
Spiral T02 Jedge-onno >0.750 4928 
Scd(T=6) : g.InLDeV_g + 0.1 < g.InLExp 8 
T04 fspiralyes > 0.719 
cE(T=-6) g.InLDeV_r >g.InLExp_r + 0.1 
TOl Fomooth >0.469 
Elliptical E(T=-5) g.InLExp_r > -999.0 6453 
T07 Fin. between >0.70 
cD(T=-4) g.InLDeV. g > -999.0 
S0 (T=-3) g.InLDeV_r < g.InLExp_r + 0.1 
i 0 TOI features/disk 20.630 
Lenticular S0 (T=-2) g.InLDeV_g + 0.1 >g.InLExp_g 3141 
. T02 Seage-onyes> 0.785 
S0*(T=-1) -1200.0«g.InLDeV. g < -1500.0 


TOI Sfeatu res/disk >0.430 


T02 aeo >0.715 
TOJ fuo. bar. >0.715 

Irregular Im(T=10) T04 Íipiraino >0.715 ] " 
T05 fNo_bulge >0.750 
T06 Sodayes >0.650 
TER Ton > 0.715 


ik: EFIGI 中 样本 选择 中 前 面 字母 ( 例 S0") 为 所 代表 的 星系 形态 类 型 ， 括 号 中 T 为 形态 参数 ，Galaxy Zoo2 中 
任务 选择 T01~T11 代 表 的 11 个 分 类 任务 ，ficarwrevaist 代 表 一 张 平滑 且 有 盘 状 结构 的 频率 ，foaooonno 代 表 一 张 图 
像 没有 侧 向 边缘 的 频率 , fijiraryes 代 表 一 张 图 像 是 旋涡 星系 的 频率 ,以 此 类 推 ; SDSS DR16 主 要 物理 限制 中 ， 
g8.InLDeV_g 中 g. 是 Galaxy 库 的 一 个 代称 ，InLDeV_g 代 表 的 是 g 小 段 崩 解 曲 线 拟 合 的 可 能 性 ， inLExp_r 代 表 的 是 r 
波段 指数 拟 合 的 可 能 性 。Nvwpi 为 样本 总 数 。 


2.2 星系 图 像 预 处 理 
卷 积 神经 网 络 对 尺寸 小 的 数据 学 习 能 力 更 强 ， 且 训练 速度 快 中 9。 为 了 减 小 图 像 中 存 
在 的 不 必要 相 邻 信息 对 实验 结果 的 影响 , 我 们 首先 对 星系 数据 进行 了 剪裁 处 理 , 之 后 进行 了 
下 采样 。 以 透镜 星系 为 例 ， 如 图 2 所 示 424 x 424pixel 的 图 像 被 剪裁 成 164 x164pixel， 之 后 将 
图 像 下 采样 到 80 x 80pixel 大 小 。 
图 像 在 相机 捕捉 、 图 像 信 息 传输 、 数 字 图 
像 转化 过 程 中 等 都 会 存在 噪声 干扰 ， 品 声 的 对 
加 会 严重 影响 图 像 质量 ， 进 而 导致 图 像 的 本 质 
特征 发 生 改 变 。 对 星系 形态 进行 分 类 时 ， 保 存 
图 像 中 星系 的 外 形 轮 廊 和 纹理 信息 至 关 重 要 ， 
所 以 本 文 对 图 像 采 用 边缘 导向 的 非 局 部 均值 去 
噪 方法 中 。 首 先 ， 对 图 像 采用 二 阶 差 分 Sobel 算 
子 抽取 边缘 ; 其 次 ， 将 边缘 信息 与 原 有 的 噪声 
图 像 共 同 构建 一 个 非 局 部 协同 滤波 框架 ; 最后， 图 2 星系 剪裁 及 下 采样 
将 边缘 信息 参与 噪声 图 像 的 修复 。 支 噪 效 果 如 Fig.2 Galaxy image clipping and down sampling 
图 3 所 示 ， 可 以 发 现 去 噪 之 后 星系 周围 的 噪声 点 
被 去 掉 ， 且 图 像 有 了 更 多 、 更 明显 的 边缘 纹理 
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Before denoising After denoising 


图 3 ”图像 去 噪 效果 展示 图 4 数据 增强 效果 展示 
Fig.3 Image denoising effect display Fig.4 Data enhancement results display 


数据 集中 不 规则 星系 和 透镜 星系 类 型 的 数量 相对 较 少 , 数据 集 的 类 间 比 例 失 衡 会 影响 模 
型 的 可 靠 性 。 所 以 本 文采 用 数据 增强 的 方法 增加 不 规则 星系 和 透镜 星系 的 个 数 。 数 据 增强 光 
果 如 图 3 所 示 ， 数 据 增强 方式 如 下 1; 

旋转 : 星系 图 像 具 有 旋转 不 变性 ， 利 用 图 像 的 这 一 性 质 对 图 像 进行 随机 旋转 ,旋转 范围 
设置 为 30”; 

缩放 : 缩放 范围 为 0.7-1.3 倍 ; 

翻转 ， 沿 着 垂直 轴 和 水 平 轴 随 机 翻转 每 个 图 像 ; 

平移 : 图 像 中 的 对 象 可 能 不 在 帧 的 中 心 ， 并 且 在 不 同方 向 上 会 有 偏 移 。 我 们 对 每 幅 图 像 
进行 了 水 平和 垂直 随机 平移 ， 平 移 范 围 为 0-10 像 素 。 


3 分 类 网 络 介绍 


3.1 GMC-net 网 络 构架 
如 图 4 所 示 ， 典 型 的 ConvNet20 由 输入 层 、 卷 积 层 、 池 化 层 、 全 连接 层 以 及 最 后 的 输 昌 
层 构成 。 输 入 层 主要 是 把 初始 化 数据 做 预 处 理 ; 卷 积 层 主要 进行 特征 提取 ; 池 化 层 主要 进行 
特征 压缩 ， 减 小 过 拟 合 ; 全 连接 层 主 要 起 到 “分 类 器 ”的 作用 。 
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图 5 卷 积 神经 网 络 通用 结构 


Fig.5 General structure of convolutional neural network 


co 


本 文 受 Lenet5 网 络 参数 量 少 易 训 练 优点 的 启发 ， 结 合 不 同 激活 函数 和 BN 层 的 特点 ， 搭 
建 了 GMC-net 网 络 。 该 网 络 不 仅 训练 的 参数 量 少 ， 还 因 BN 层 的 加 入 大 大 加 快 了 网 络 的 收敛 
速度 ， 并 获得 了 很 好 的 分 类 准确 率 。 
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图 6 GMC-net 整 体 构架 
Fig.6 Overall framework of GMC-net 


ESI Convolution c Batch Normalization Max Pooling m Fully connected 


图 6 是 GMC-net 整 体 构架 图 ， 该 网 络 有 一 个 输入 层 、 五 个 卷 积 层 及 一 个 全 连接 层 和 一 个 


输出 层 ， 表 2 是 对 GMC-net 构 架 中 各 个 层 的 参数 设置 总 结 。GMC-net 网 络 的 每 一 层 卷 积 层 后 
都 有 一 个 BN 层 和 最 大 池 化 层 。BN 层 可 以 加 快 收敛 速度 和 训练 速度 池 化 层 对 卷 积 得 到 的 特 
征 进 行 特征 压缩 来 减 小 过 拟 合 。 此 外 ，GMC-net 网 络 采 用 不 同 的 激活 函数 相互 协调 : 为 更 好 
输入 到 下 一 层 前 两 层 使 用 双 曲 正切 激活 函数 (Tanh)2; 为 使 模型 的 收敛 速度 稳定 、 计 算 速 度 
更 快 ， 中 间 第 三 、 四 卷 积 层 使 用 修正 线性 单元 ReLU (Rectified linear unit) Boe RA JH 
制 神经 元 死亡 第 五 层 卷 各 ZOKHLeaky ReLU 激 活 函 数 。 经 过 第 五 层 卷 积 层 之 后 的 特征 被 
Flatten(O) 函 数 展 为 一 维 数组 ， 并 输入 第 一 层 全 连接 层 ， 在 此 所 用 激活 函数 为 ReLU 激 活 函 数 ， 


输出 为 1600。 输 出 层 设置 为 4 向 分 类 ， 所 用 的 激活 函数 为 softmax。 
表 2 GMC-net 体系 结构 概述 
Tab.2 Overview of GMC-net architecture 
Filters Filter size Padding Activation function 
Conv 1 64 3x3 Same Tanh 
BN 1 
Pooling 1 
Conv 2 64 5x5 Same Tanh 
BN 2 
Pooling 2 
Conv 3 64 5x5 Same ReLU 
BN 3 
Pooling 3 
Conv 4 64 7XT Same ReLU 
BN 4 
Pooling 4 
Conv 5 64 7x7 Same Leaky ReLU(alpha=0.01) 
BN_5 
Pooling_5 
Fully_1 1600 - - ReLU 
Output 4 - - Softmax 


Type 
2D 


Max pooling 
2D 


Max pooling 
2D 


Max pooling 
2D 


Max pooling 
2D 


Max pooling 
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本 次 研究 还 用 了 Krizhevsky 等 人 提出 的 AlexNet 网 络 趾 、 基 于 Dieleman 等 中 提出 的 卷 积 神 
经 网 络 、 戴 佳明 等 "提出 的 ResNet-26 网 络 以 及 Cavanagh 等 "针对 星系 形态 分 类 提出 的 C2 分 


类 网 络 。 


Network 
Main structure 
type 
AlexNet consists of 5 
Convolution layers, 3 
AlexNei?!! Maxpooling layers, 
and 3 fully connected 


layers. 


It consists of 4 
Convolution layers, 3 


Dieleman?! 


Maxpooling layers, 
and 3 fully connected 


layers. 


ResNet-26 consists of 
26 Convolution layers, 


ResNet-26?! 


1 Maxpooling layers, 
and 1 Averagepooling 


layer. 


C2 network consists of 
4 Convolution layers, 
cael 3 Maxpooling layers, 
and 3 fully connected 


layers. 


表 3 其 他 分 类 网 络 简介 


Tab.3 Introduction to other classified networks 


Overall network architecture 


<- 一 


orm 


e 
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ZEE [eal Se 
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HIE 
à 


x16 2048 2048 
maxout(2) maxout(2) 
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H 

i 
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Conv2D (64, 5x5) 
Conv2D (64, 5x5) 
Conv2D (128, 3x3) 


表 3 中 分 别 对 AlexNet 网 络 、Dieleman 网 络 、ResNet-26 网 络 以 及 C2 网 络 的 整体 结构 结构 


进行 了 简单 介 


i 绍 ， 其 构架 图 中 可 以 清楚 的 看 到 整体 网 络 的 层 数 、 每 个 层 所 在 的 位 置 、 每 一 层 


滤波 器 数量 及 大 小 的 设置 参数 、 所 用 池 化 层 的 池 化 方式 以 及 Dropout 层 的 丢弃 率 等 。 此 外 四 
个 分 类 网 络 所 有 的 卷 积 层 都 是 采用 的 ReLU 激 活 函 数 。 


4 实验 结果 分 析 及 讨论 


TER ip, 我 们 首先 对 评估 模型 的 性 


行 分 类 并 与 类 似 的 研究 进行 了 对 比 。 


能 指标 进行 了 介绍 , 之 后 用 不 同 网 络 对 星系 数据 进 


4. PA HEAR UTE 


准确 


1、 通 过 混淆 矩阵 (如 表 
召回 率 以 及 F1-score 调 和 值 。 


和 率 (Accuracy) 反 


4 所 示 )， 可 以 求 得 衡量 分 类 模型 的 性 能 指标 :准确 率 、 精 确 率 、 
AA 混淆 矩阵 
Tab.4 Confusion matrix 
Predicted value 
True False 
True TP FN 
Actual value 
False FP TN 
TP (True Positive): 把 正 样本 成 功 预 测 为 正 ，TN (True Negative): 把 负 样 本 成 功 预测 为 负 ; 
FP (False Positive): 把 负 样 本 错误 地 预测 为 正 ，FN (False Negative): 把 正 样本 错误 的 预测 为 负 。 
映 的 是 分 类 模型 所 有 判断 正确 的 结果 占 总 观测 值 的 比重 ， 精 确 率 
(Precision) 是 在 模型 预测 是 Positive 的 所 有 结果 中 ， 模 型 预测 正确 的 比重 ， 召 回 率 (Recall) 


所 示 : 


4.2 训练 和 验证 


在 真实 值 是 Positive 的 
和 平均 数 。 准确 率 、 精确 率 、 B H 


HAARP, AMEMA EE 


TP+TN 


E: Fl-score 是 精确 率 和 召回 率 的 调 
率 及 Fl-score 的 计算 公式 分 别 如 公式 (1)、(2)、(3)、(4) 


Accuracy = 一 -一 一 一 一 一 一 (1) 
TP+FN+FP+TN 
Precision = 一 一 一 (2) 
TP+FP 
TP 
Recall = 一 一 一 (3) 
TP+FN 
2*Precision*Recall 
Fl-score = Precision+Recall (4) 


本 文 的 所 有 程 


16GB 内 存 和 64 位 Windows 系 统 的 桌 


序 都 是 python 程 序 ， 运 行 在 2.80 Ghz Intel(R)Core(TM)i9-10900F CPU, 
上 ， 并 使 用 RTX 2070 super GPU 加 速 计算 。 在 模型 训 


练 过 程 中 ， 由 于 batch size 的 大 小 取决 于 数据 集 大 小 以 及 GPU 的 处 理 能 力 ， 综 合 考虑 我 们 将 
batch size 设 置 为 64。 


本 次 研究 首先 对 综合 数据 集中 (Galaxy zoo2 ~ SDSS DRI16. EFIGIH 3) B JU f 
星系 进行 了 分 类 涡 


iv 


不 同形 态 


1 试 ， 在 模型 训练 开始 前 ， 首 先 将 数据 集 分 为 了 按照 7.5: 2.5 分 为 训练 集 和 


验证 集 ， 并 对 两 者 分 别 进行 了 数据 增强 ， 最 终 数据 集 构成 如 表 5 所 示 。 
表 5 数据 集 信息 


Tab.5 Dataset information 


Data set 1 Data set 2 
Training set Test set Training set Test set 
Spiral 3869 1289 1005 300 
Elliptical 4956 1651 1012 300 
Lenticular 4067 1355 1017 321 
Irregular 3680 1227 1003 305 
Total data 16572 5522 4037 1226 
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表 5 中 的 数据 集 1(Data set 1) 是 来 自 SDSS DR16、 
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Galaxy Zoo2 和 EFIGI 目 录 三 方 的 综合 妆 


据 集 ， 由 于 表 1 中 透镜 星系 和 不 规则 星系 数量 相 较 于 其 他 两 类 较 少 ， 为 减少 类 间 比 例 失 衡 问 
题 对 分 类 模型 的 影响 ， 在 此 对 透镜 星系 和 不 规则 星系 进行 了 数据 增强 。 数 据 集 2(Data set 2) 


是 EFIGI 目 录 单 独 构成 的 数据 集 ， 


和 


iv 


原始 数据 为 920 张 旋涡 星系 、289 张 椭圆 星系 、531 张 透镜 
星系 以 及 248 张 不 规则 星系 。 为 保持 各 类 形态 星系 类 间 比 例 均衡 ， 对 每 类 星系 也 进行 了 不 同 
程度 的 数据 增强 。 最 终 数 据 集 1 中 16572 张 图 像 作为 训练 集 ，5522 张 图 像 作 为 测试 集 ; 数据 集 


2 中 4037 张 图 像 作为 训练 集 ，1226 张 图 像 作 为 测试 集 。 
在 训练 及 验证 过 程 中 , 如 图 7 所 示 我 们 对 GMC _net 网 络 、 C2 网络 、AlexNet 网 络 、Dieleman 
提出 的 分 类 网 络 以 及 ResNet-26 分 类 网 络 的 可 训练 参数 量 进行 了 统计 。 


35 
30 
25 
20 


parameters li 


Trainable parameters(million) 


- - " 
GMC net C2 AlexNet Dieleman ResNet-26 


图 7 各 个 网 络 可 训练 参数 量 统 计 


Fig 7 Statistics of trainable parameters of each network 


网 络 可 训练 参数 量 反映 了 该 网 络 计 
算 过 程 中 的 复杂 程度 ， 是 决定 模型 的 训 
练 速度 的 重要 因素 。 参 数量 越 大 说 明 网 
络 越 复 杂 ， 同 一 设备 下 训练 该 网 络 所 消 
耗 的 时 间 越 多 ， 且 越 复 杂 的 网 络 对 计生 
机 计算 性 能 的 要 求 越 高 。 从 图 中 可 以 看 
出 AlexNet 网 络 和 ResNet-26 网 络 的 可 训 
练 参 数 远 远大 于 其 他 三 个 网 络 。 其 中 
Dieleman 的 可 训练 参数 约 为 362 万 ，C2 网 
络 的 可 训练 参数 约 为 337 万 ，GMC _net 网 
络 的 约 为 293 万 。 从 可 训练 参数 量 来 看 
GMC _net 网 络 是 最 少 的 ， 其 在 训练 速度 
上 占 了 很 大 优势 。 


1.00 


eo 
0 
a 


accuracy 
o 
Oo 
o 


GMC net 


C2 


Dieleman 


AlexNet 


ResNet-26 


00 25 50 7.5 10.0 125 15.0 17.5 


epochs 


Fig 8 Graph of relationship between 


图 8 准确 率 与 训练 次 数 关 系 曲线 图 


accuracy and epochs 


注 : 图 中 的 实 线 为 训练 集 准 确 率 与 训练 次 数 的 变化 关系 曲线 ， 虚 线 为 验证 集 准 确 率 与 训练 次 数 的 变化 关系 曲线 


势 (在 此 所 有 的 权重 和 偏差 在 训练 开始 时 都 是 随机 的 


的 关系 图 。 从 图 8 中 可 以 发 现 ， 五 个 分 类 网 络 的 准确 率 都 呈现 出 迅速 上 升 之 后 趋 于 稳定 的 趋 


势 。 其 中 AlexNet 网 络 在 训练 10 次 左右 开始 趋 于 收敛 


图 8 显示 了 五 种 CNN 架 构 的 在 训练 时 训练 集 准 确 率 、 验 证 集 准 确 率 随 训练 次 数 的 变化 趋 


)， 在 此 我 们 展示 了 20 个 epochs 与 准确 率 


， 最 终 训 练 集 的 最 高 准确 率 为 92.3%， 验 


证 集 的 最 高 准确 率 为 90.0%; Dieleman 网 络 在 训练 7 次 左右 开始 趋 于 稳定 ,训练 集 准 确 率 最 高 


为 96.3%， 验 证 集 准 确 率 最 高 为 95.2%; ResNet-26 网 络 在 训练 16 次 左右 开始 趋 于 稳定 ， 其 收 


敛 速 度 相 对 较 慢 , V 


| 练 集 最 高 准确 率 为 98.2%， 验 订 
次 左右 开始 趋 于 稳定 ， 训 练 集 准 确 率 最 高 为 98.5%， 验 证 


T 


FE 集 最 高 准确 率 为 97.8%; C2 网 络 在 训练 6 
集 准 确 率 最 高 为 97.9%; GMC net 


网 络 在 训练 4 次 左右 开始 趋 于 稳定 ， 训 练 集 准 确 率 最 佳 是 为 99.53%， 验 证 集 准 确 率 最 佳 为 


99 


.18%; 从 图 


8 可 以 看 出 ，GMC_net 网 络 在 训练 过 程 中 准确 率 是 最 高 的 。 在 各 个 网 络 训练 最 


佳 情况 下 ， 耗 时 最 多 的 是 AlexNet 和 ResNet-26 网 络 ， 耗 时 最 少 的 是 GMC _net 网 络 。 


确 


综 上 , GMC _net 网 络 的 可 训 


| 练 参数 最 少 , 且 训 练 过 程 中 GMC_net 其 训练 集 和 验证 集 的 准 


率 均 能 保持 稳定 且 高 于 其 他 四 个 网 络 ， 在 收敛 速度 上 超过 了 其 他 四 个 网 络 ， 总 体 来 看 


GMC _net 表 现 最 好 。 


4.3 不 同 分 类 方法 的 分 类 结果 对 比 


应 


所 
值 
不 


确 


表 6 是 GMC_net 对 数据 集 1 中 验 说 


的 准确 率 、 精 确 率 、 召 回 率 以 及 Fl1-score。 
数据 集 1 验证 集 分 类 测试 的 混淆 矩阵 


Tab.6 Confusion matrix of verification set classification test in data set 1 


A6 


Predicted value 


Spiral Elliptical Lenticular 
Spiral 1269 12 7 
Actual Elliptical 12 1635 4 
value Lenticular 5 10 1340 
Irregular 5 3 0 
Precision 98.29% 98.49% 99.18% 
F1-score 98.36% 98.75% 99.03% 
Accuracy 98.93% 


F 集 测试 得 到 的 混淆 矩阵 , SEI VER EY DA SS BUA 


Recall 
Irregular 
1 98.44% 
0 99.03% 
0 98.89% 
1219 99.34% 
99.91% 
99.62% 


由 表 6 可 以 得 出 , 本 次 实验 最 终 对 旋涡 星系 的 分 类 精确 率 为 98.29%, 其 召回 率 为 98.44% , 
同 星 系 的 分 类 精确 率 为 98.49%, 召回 率 为 99.03%， 其 Fl-score 


得 的 Fl-score 值 为 98.36%; Wi 


为 98.75%; 透镜 星系 的 分 类 精确 率 为 99.18%， 召 回 
规则 星系 的 分 类 精确 率 为 99.91%， 召 回 率 为 99.34%， 


率 为 98.93%。 


表 6 展 示 的 是 数据 集 1 中 5522 张 验 订 


、 精 确 率 以 及 召 


表 7 不同 网 络 验 证 结果 对 比 


EF 集 在 五 个 分 类 网 络 的 最 终 分 
率 都 是 各 个 网 络 多 次 重复 验证 后 取得 的 最 佳 结 


率 为 98.89%， 其 Fl-score 值 为 99.03%; 
其 F1-score 值 为 98.36%; 总 体 分 类 准 


类 结果 对 比 , 表 中 的 准确 
果 。 


Tab.7 Comparison of verification results of different networks 


Network Accuracy Precision Recall 
AlexNet 91.23% 90.15% 92.34% 
Dieleman 94.92% 95.32% 93.47% 
ResNet-26 97.82% 98.36% 97.54% 
C2 98.04% 98.27% 97.96% 
GMC_net 98.93% 98.96% 98.90% 


从 表 7 中 可 以 看 到 ，AlexNet 和 Dieleman 在 准确 率 、 精 确 率 及 召 
两 者 的 Fl-score 调 和 值 相 比 于 其 他 网 络 也 偏 低 ; ResNet-26 虽 然 精 确 率 


Fl-score 
91.23% 
94.38% 
97.94% 
98.11% 
98.94% 


H 


率 上 均 小 于 其 他 网 络 ， 


比 C2 网 络 要 高 , 但 是 在 


准确 率 、 召 回 率 及 Fl-score 上 略 低 于 C2 网 络 ，GMC _net 在 五 个 网 络 中 获得 了 最 高 的 准确 率 ， 


H 


来 看 ，GMC_net 的 分 类 性 能 优 于 其 他 网 络 。 
为 进一步 证 明 我 们 方法 的 可 行 性 ， 我 们 单独 针对 表 1 中 来 自 EFIGI 目 录 的 星系 重新 利用 
GMC _net 进 行 了 单独 训练 分 类 并 与 其 他 研究 方法 进行 了 对 比 。 为 保持 类 间 比 例 均 衡 , 我 们 将 


来 自 EFIGI 目 录 的 星系 扩展 为 表 51 


其 中 [7] 提 取 了 星系 图 像 的 颜色 特 生 


rp ese. EERE. ARTE 


其 精确 率 、 召 回 率 以 及 Fl-score 调 和 值 与 以 上 所 有 网 络 的 相 比 也 都 为 最 高 。 从 最 终 分 类 效果 


的 数据 集 2。 在 此 根据 [7][10] 中 的 数据 描述 ， 我 们 所 选 的 
数据 集 是 包含 两 者 所 用 的 样本 (所 涉及 到 的 样本 类 型 均 选取 了 其 所 有 子 类 ) 。 
F(first three order moments). 纹理 特征 ( 灰 度 共生 和 矩阵 ， 


能 量 等 信息 ) 以 及 其 形状 特征 (contour moments) 三 种 特征 ， 并 


习 机 (EML) 来 进行 分 类 。 


用 二 进 制 正弦 余弦 算法 选择 最 相关 的 特 生 


F,， 之 后 用 KNN 进 行 分 类 测试 ; [10] 是 利用 四 元 数 极 
坐标 复 指 数 变换 矩 (qpeb 从 星系 彩色 图 像 中 提取 色彩 特征 并 进行 特征 筛选 ， 最 终 利用 极限 学 


表 8 与 其 他 研究 方法 的 对 比 结果 


Tab.8 Comparison with other studies 


Method Accuracy Precision 
[7] 91.9 % 92.7% 
[10] 98.71% 98.72% 
GMC_no 99.04% 98.88% 
GMC 99.34% 99.12% 


从 表 8 中 可 以 看 出 ， 在 都 使 


星系 、 旋 涡 星 系 、 透 镜 星系 以 


召回 率 及 调和 值 都 要 高 。 


其 次 ,方案 [7][10] 以 上 两 种 方法 一 方 


其 Fl1-score 的 值 为 98.74%; REIT E i A 3H 


Recall F1-score 
8596 88.68% 
98.78% 98.74% 
98.76% 98.81% 
98.86% 98.98% 


YE: GMC_no 与 GMC 的 区 别 是 : GMC _no 没 有 去 噪 处 理 这 一 过 程 


EFIGI 目 录 做 数据 集 的 前 提 下 ， 方 法 [7] 对 EFIGI 目 录 中 的 李 


及 不 规则 星系 进行 


分 类 , 效果 最 好 的 为 分 类 精确 率 为 92.7%， 


FE 


理 、 运 算 过 程 比 较 复 杂 ; 另 一 方 


其 Fl-score 的 值 为 88.68%; 方法 [10] 对 四 类 星系 进行 分 类 的 最 佳 结果 总 体 召 回 率 为 98.78%， 
时 ，GMC_no 的 召回 率 低 于 方案 [10] 的 召回 率 ， 去 
噪 之 后 ，GMC 对 EFIGI 目 录 中 椭圆 星系 、 旋 涡 星 系 、 透 镜 星 系 以 及 不 规则 星系 分 类 的 总 体 分 
类 准确 率 、 精 确 率 、 召 回 率 以 及 Fl-score 值 均 提升 ， 且 比方 案 [7][10] 得 至 


| 准确 率 、 精 确 率 、 


在 特征 选择 、 分 类 器 选择 上 有 很 大 困难 ， 且 其 处 
[7][10] 存 在 星系 分 类 样本 类 间 比 例 严 重 失衡 的 问题 ， 这 极 
大 可 能 导致 实验 结果 不 能 真实 反映 真实 分 布 , 甚至 直接 估计 出 现 很 大 误导 。 而 本 文 所 采用 的 


方法 在 前 期 对 图 像 进行 了 预 处 理 , 一 是 用 非 局 部 均值 去 噪 减 少 了 噪声 对 图 像 的 影响 , 二 是 我 


们 对 不 同形 态 的 星系 分 别 进行 了 数据 增 


4 


实验 结果 产生 的 影响 , 最 后 及 月 


强 , 减 小 了 由 于 样本 量 小 、 样 本 类 间 比 例 分 布 不 均 对 
GMC _net 分 类 网 络 完美 避 开 了 图 像 特征 提取 、 选 择 及 分 类 器 


的 选择 难题 ， 所 以 综合 来 看 我 们 的 分 类 方法 是 非常 可 行 的 。 


44 GMC _net 网 络 卷 积 特征 可 


视 化 


本 次 研究 最 后 利用 Grad-CAMC 技术 对 GMC _net 卷 积 特征 进行 了 可 视 化 解释 ， 
gard-CAM 可 以 将 热力 图 与 原 图 结合 的 方式 将 各 类 形态 星系 经 过 卷 积 之 后 的 特征 进行 展示 ， 
gard-CAM 图 可 以 反映 卷 积 神经 网 络 对 预测 输出 的 贡献 分 布 ， 分 数 越 高 的 地 方 表示 原始 图 像 
对 应 区 域 对 网 络 的 响应 越 高 、 贡 献 越 大 。 
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图 10 旋涡 星系 经 GMC_net 卷 积 后 特征 可 视 化 


Fig. 10 Spiral galaxies passing through GMC_ Net convolution feature visualization 


= 


ik: 每 幅 子 图 从 左 往 右 依次 是 星系 原 图 、 经 过 GMC _net 第 四 层 卷 积 之 后 的 map 图 、map 合 并 图 、gard-CAM 可 视 化 图 像 


GMC _net 不 同 卷 积 层 所 提取 特征 不 同 ， 最 开始 提取 的 星系 边缘 、 角 落 等 ,之 后 边缘 检测 
提取 简单 形状 。 在 高 层 中 ， 特 征 图 利用 高 级 特征 的 组 合 来 识别 抽象 斑点 。 以 旋涡 星系 为 例 ， 
例如 在 第 四 卷 积 层 中 ， 图 10 所 示 map 合 并 图 中 每 个 要 素 图 的 可 区 分 性 更 强 ， 这 正 是 分 类 模型 
所 期 望 的 。 利 用 gard-CAM 对 经 过 四 层 卷 积 的 特征 进行 了 可 视 化 ， 图 中 清楚 地 展现 其 核心 中 
间 的 突起 及 涡 旋 星系 旋 的 臂 状 结构 ， 特 征 贡献 度 由 内 向 外 螺旋 递减 ， 进 一 步 清 楚 地 展现 了 
GMC _net 在 星系 形态 在 星系 轮廓 特征 、 纹 理 特 征 提 取 及 处 理 方面 的 高 性 能 。 


5 总 结 与 展望 


星系 的 形态 与 星系 的 形成 、 演 化 有 着 密切 的 联系 ,是 探究 星系 物理 的 重要 参数 。 目 前 对 
于 星系 形态 分 类 研究 领域 依然 存在 分 类 类 别 少 、 图 像 特征 选择 困难 、 各 类 形态 星系 样本 分 布 
不 均 、 分 类 的 准确 率 较 低 等 问题 。 针对 以 上 问题 ,本文 提 出 了 一 种 基于 卷 积 神经 网 络 的 星系 
形态 分 类 方法 GMC， 实 现 了 对 旋涡 星系 、 椭 圆 星系 、 透 镜 星 系 已 经 不 规则 星系 四 种 形态 的 
高 效 分 类 。 本 次 研究 中 ， 我 们 首先 对 星系 图 像 进 行 剪 切 、 下 采样 、 去 噪 、 数 据 增强 一 系列 处 
里 ， 保 证 了 个 样本 的 多 样 性 、 均 衡 性 , 减 小 了 图 像 噪声 和 样本 类 间 比 例 失衡 对 分 类 模型 的 影 
响 ; 其 次 , 我们 构建 了 一 个 针对 星系 形态 分 类 卷 积 神经 网 络 一 GMC-net， 此 网 络 可 以 自动 提 
取 星 系 图 像 的 特征 ， 并 根据 其 形态 进行 自动 分 类 ， 避 开 了 特征 提取 、 选 择 以 及 分 类 器 选择 的 
难题 。 利 用 GMC 方 法 对 综合 数据 集 (SDSS DR16、Galaxy Zoo2、EFIGI 目 录 组 合 ) 中 不 同形 态 
的 星系 进行 了 分 类 ， 从 实验 分 类 结果 来 看 ， 旋 涡 星系 、 椭 圆 星系 、 透 镜 星 系 以 及 不 规则 外 形 
星系 分 类 精确 率 分 别 为 98.29%、98.49%、99.18%、99.91%， 召回 率 分 别 为 98.44%、99.03%、 
98.89%、99.34%; 对 来 自 EFIGI 目 录 中 四 种 形态 星系 的 分 类 平均 分 类 准确 率 也 达到 了 99.34%。 
实验 结果 表明 GMC 相 较 于 其 他 分 类 方法 表现 更 好 ， 可 以 更 有 效 地 用 于 星系 的 形态 分 类 。 

本 文 虽然 在 一 定 程度 上 推动 了 星系 形态 分 类 问题 的 解决 , 取得 了 相应 的 进展 , 然而 仍然 
存在 一 些 不 足 之 处 有 待 进一步 探索 : 

首先 在 数据 上 为 保证 所 选 样 本 更 准确 ， 本 文 在 Galaxy Zoo2 中 所 选择 的 阔 值 都 是 偏 大 一 
些 的 , 对 该 数据 集 应 用 的 还 是 不 够 充分 ; 其 次 在 SDSS DR16 中 由 于 对 不 规则 星系 的 物理 参数 
还 未 有 人 统计 研究 ， 在 此 未 直接 从 DR16 中 得 到 不 规则 星系 。 星 系 形态 分 类 无 疑 是 需要 大 量 
的 样本 量 , 获取 数据 的 方式 也 很 多 , 未 来 在 数据 方面 可 以 从 数据 库 利用 率 以 及 五 波段 测 光 数 
据 应 用 等 方面 进行 研究 。 

其 次 本 文 所 构建 的 GMC_net 网 络 可 自动 提取 星系 形态 特征 ,并 自动 对 星系 形态 分 类 。 从 
分 类 结果 来 看 分 类 准确 率 很 好 , 但 其 中 透镜 星系 、 椭圆 星系 及 涡 旋 星系 错 分 的 图 像 相 对 多 一 


‘Ht 


点 ， 且 对 错 分 的 样本 难以 区 分 。 所 以 在 未 来 分 类 系统 研究 中 可 以 尝试 构建 专家 系统 与 神经 网 
a 模型 ， 即 神经 网 络 专家 系统 ， 以 提升 模型 的 分 类 性 能 。 
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A new method for Galaxy morphology classification-GMC 
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Abstract: In the field of astronomy, the classification of galaxies has always been a hot and 
difficult problem. In recent years, some scholars have applied machine learning to the simple 
classification task of galaxy morphology, but in the process of classification, there are a series of 
problems, such as feature selection difficulty, feature omission, classifier selection difficulty and 
so on. Galaxies can be roughly divided into elliptical galaxies, spiral galaxies, lenticular galaxies 
and irregular galaxies in visual morphology. In this paper, GMC (Galaxy morphological 
classification) which is a more accurate classification method is proposed for the photometric 
images of galaxies in SDSS DR16, Galaxy Zoo2 and EFIGI catalog. Firstly, we cut and denoise 
the images, and use rotation, translation, scaling and other methods to enhance the data. Finally, 
we build the GMC-net to classify photometric images. According to the classification results, the 
classification accuracy of spiral galaxies, elliptical galaxies, lenticular galaxies and irregular 
galaxies in different databases are 98.29%,98.49%,99.18% and 99.91%, respectively; The average 
classification accuracy of four different galaxies from the same database EFIGI catalog is 99.34%. 
The experimental results show that GMC performs better than other classification methods, and 
can be used to classify galaxies more effectively. 


Key words: Galaxy morphology classification; Data enhancement; Convolution neural network; 


